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Анализ преобразований для проецирования 
данных на обобщенную ось 
в задачах распознавания образов 


Решена задача разработки и исследования преобразований из двумерного пространства в одномерное 
для сокращения размерности обучающей выборки в задачах распознавания образов. Предложены 
рекомендации по использованию исследованных преобразований, позволяющие их ранжировать и 
сократить при использовании на практике. 


Введение 


Автоматизация принятия решений в задачах неразрушающей диагностики и рас- 
познавания образов по признакам предполагает построение моделей соответствующих 
зависимостей выходных параметров (целевых признаков) от входных описательных 
признаков. Однако присущие большинству практических задач многомерность и не- 
линейность расположения классов в признаковом пространстве крайне затрудняют 
решение данной задачи. Кроме того, для задач диагностики чрезвычайно большое зна- 
чение имеет интерпретабельность построенных моделей, а также возможность визуа- 
лизации результатов этапов процесса принятия решений. 

Одним из путей решения проблемы снижения размерности задачи распознава- 
ния образов является использование методов отбора информативных признаков (Еавте 
з@есйоп) [1], [2]. Однако данные методы, как правило, являются высокоитеративны- 
ми и дают хорошие результаты лишь в случае, когда в исходном наборе признаков 
присутствуют высокоинформативные признаки. Таким образом, по сути, цель данных 
методов — исключить из исходного набора малоинформативные признаки. При этом сле- 
дует учитывать тот факт, что индивидуальные и групповые оценки информативности 
признаков могут существенно отличаться, а понятие (или мера) информативности, за- 
ложенное в конкретном методе отбора признаков, может не соответствовать понятию 
информативности для используемого метода построения модели. 

Другим путем решения проблемы снижения размерности является использова- 
ние методов извлечения признаков (Реабте ехгасноп) [3-6], которые на основе исход- 
ного множества признаков большой размерности формируют множество искусственных 
высокоинформативных признаков меньшей размерности. Данные методы можно раз- 
делить на проблемно-ориентированные (применимы только для конкретной задачи и 
основаны на специфических для нее правилах, например, выделение признаков для 
распознавания человека по изображению лица [6]) и универсальные [3-5] (представ- 
ляют собой некоторые преобразования из пространства большой размерности в про- 
странство меньшей размерности, сохраняющие расстояния между экземплярами обучаю- 
щей выборки). К недостаткам данных методов следует отнести неуниверсальность 
проблемно-ориентированных методов, а также сложность интерпретации результа- 
тов проецирования обучающего множества из ЛМ-мерного в М-мерное пространство. 
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Метод обобщенной оси [7], [8] комбинирует оба рассмотренных пути решения 
проблемы сокращения размерности путем выделения пар индивидуально наиболее 
информативных признаков и проецирования данных из двумерной плоскости пары приз- 
наков на обобщенную ось, которая заменяет исходные признаки, если ее индивидуаль- 
ная информативность выше, чем у любого из них, после чего для нового множества 
признаков аналогичным образом формируются новые проекции на обобщенные оси. 
Данный процесс продолжается до тех пор, пока не будет сформирован один обобщен- 
ный признак, либо заданный набор преобразований не перестанет формировать более 
информативные обобщенные оси по отношению к исходным признакам. Такой метод 
позволяет обеспечить интерпретабельность процедуры принятия решений благодаря 
иерархичности преобразований, визуализировать многомерные данные на одномерной 
обобщенной оси, исключить или снизить влияние малоинформативных признаков на 
итоговую модель. Тем не менее, для данного метода актуальной является задача выбо- 
ра преобразований на обобщенную ось. 

Целью данной работы является анализ преобразований выборки данных на об- 
общенную ось и выбор наиболее эффективных из них для использования на практике. 


1. Постановка задачи 


Пусть задана обучающая выборка <х, у>, гдех = {х},у= {у}, х= д, 5=1,2,..., 
$; /=1,2,..., №; х; - значение /-го признака 5-го экземпляра выборки, у’ — значение 
выходного признака (номер класса), сопоставленное 5-му экземпляру обучающей вы- 
борки, 5 — количество экземпляров, № — количество признаков. Обозначим число 
классов К и для простоты примем К = 2 (задачи с большим числом классов, как изве- 
стно, могут быть представлены через комбинацию бинарных классификаций). Рассмот- 
рим проекции обучающей выборки на плоскости, образованные попарно осями двух 
признаков х; и х,. Для сокращения размерности и упрощения решения задачи распозна- 
вания необходимо определить такое преобразование на обобщенную ось хх = М. (хг,х"), 


которое позволит улучшить разделение образов. 


2. Преобразования на обобщенную ось 


В [7], [8] для проецирования данных на обобщенную ось предложено использо- 
вать преобразования: 


2 2 
515 _ (5 5. 515 05.5. $545 Ш 15 5 
(р х;) =: +х,; Мио, х,) =х ху; шо) =х +. 


Данные преобразования зависят только от координат проецируемого экземпляра, 
по сути, определяя его положение относительно начала координат. Недостатком тако- 
го подхода является то, что он не учитывает положение классов. 

Наиболее часто классы характеризуют с помощью эталонов — усредненных идеа- 
лизированных экземпляров, соответствующих классов, координаты которых опреде- 
ляют по формуле: 


где 4 — номер класса, 57 — число экземпляров обучающей выборки, принадлежащих к 
4-му классу, СТ, — координата центра (эталона) 4-го класса по оси 1-го признака. 
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Проекция на прямую, образованную центрами классов, может быть определена 
с помощью формулы: 


СС? +С;С) [2 С | [а с} Ы 


. {@-22] +62 


где С!,С?,С!, С? 7, х;— величины, определяемые путем выполнения следующих действий. 


ТМринять с = со = сео =. 


$07, х) = 


2. Если |(@ -@?)^ (6! = с |} то выполнить шаги 2.1 — 2.2, в противном случае — 
переход к шагу 3. 
2 ЕелИ: С, = СЕ, 50 0 чоприняьес ЕТС 


2.2 Установить: С! =0, с, =0. 
3. Если [@} } + С = (С: + С} ‚ то принять: 
ас Е ее. 
Также можно использовать как преобразования на обобщенные оси: 
— квадрат расстояния от проецируемой точки до точки, лежащей на середине отрез- 
ка, соединяющего центры тяжести (эталоны) классов: 


мух = -м +, -х}, 


— нормированный угол между прямой, соединяющей проецируемую точку с точкой, 
лежащей на середине отрезка, соединяющего центры классов, и прямой, проходящей 
через точку, лежащую на середине отрезка, соединяющего центры классов, параллель- 
но оси 1-го признака. 


—— С, >0,% —С, >0,(С =] + С, -ж] > 0; 
К 
2 =. <0я=с,> о,(С =] тя -*} > 0; 
Мих) = Лия - 50.5} С, «06, - м} +, 1] >06 
Зп 
- Я Сао =с, > о, (С: хе] (<. =] > 0; 
оС. -х} +6, -27] 56 


5 ра 
х,-С; 


с -я}+©,-9) 
— комбинации угла и расстояния: 

Мун, ху) = Му (р „хи ху} 
Му, ху) | 


№х(5, 7) =Му их") со (ых )} 


ГДЕ у = агс5т 


Муш ,х7) = 
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В случае если экземпляры классов размещены относительно средней точки отрез- 
ка, соединяющего центры классов, неравномерно, представляется целесообразным оп- 
ределять углы и расстояния относительно центров классов: 


Мх (ху) = Му (хр ху) 


аа Уж ху) = Ми о , 


Мхи (р, ху) = МХ Жхш(@7 ху) =Хм ох. 


На основе найденных углов и расстояний по отношению к центрам классов мож- 
но определить преобразования, учитывающие их соотношения: 


№х (р, ху) | И Мхи ху) 
и СО Ооо ити, 
Мхш@ ›ху) 


Наряду с определением центров классов как центров тяжести для задач с неод- 
нородно размещенными экземплярами предлагается координаты центров классов оп- 
ределять на основе крайних по соответствующей координате экземпляров: 


С = тах |: У =} =1,2,...,№;а =12, 
2\5=2,...5 


которые затем можно использовать для определения преобразований, подобных ранее 
введенным, например, нормированного угла между прямой, соединяющей проециру- 
емую точку с точкой, лежащей на середине отрезка, соединяющего центры (эталоны) 
классов, и прямой, проходящей через точку, лежащую на середине отрезка, соединяю- 
щего центры (эталоны) классов, параллельно оси 1-го признака. 


Мхи (7х7) = 
7 ОИ 
Мхи (,ху) 


У -ч шт | 
2,...5 


5=Ь2.... 


Мхи (р, ху) = Му ой, ху) 2 


3. Эксперименты и результаты 


Для применения на практике представляется целесообразным исследовать пред- 
ложенные преобразования при решении задач распознавания образов различной слож- 
ности. 

Для сравнения результатов предложенных преобразований при решении задач 
распознавания определим количественные показатели качества. 

С помощью метода [1] для /-й обобщенной оси оценим количество интервалов 
смены номера класса М№;. Тогда абсолютную индивидуальную оценку информативнос- 
ти этой оси по отношению к номеру класса определим как: 


Чем больше будет значение /, тем лучше /-я ось для решения задачи разделе- 
ния классов, и, соответственно, выше эффективность преобразования на нее. 
Относительную индивидуальную оценку информативности [1] определим как: 
шт м й 
с 2-м 
И Е 
№) 
Модуль коэффициента корреляции Фехнера [9] определяется как: 


1 


5 
р Бе (ху-х,) = яв (у - »- 5 

Ф. $=1 
Я ооо и 


5 
2 вт —-х,) = 91 (У - 7+5 


5=1 
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1% 15 ъа>0; 
где хх, =— > ху, У=-» у’, 9еп(а)=4 0,а=0; 
и 
5= 5=1 = 1, а< 0. 
Чем больше будет значение коэффициента Фехнера по модулю, тем сильнее влия- 
ние /-й оси на номер класса. 
Модуль коэффициента корреляции знаков [9] определяется как: 


1 5 , В | и 1 5 | и : < 
хх —х,) >0,5101(” —У)> ое —х,) > о Увею гы у 


5=1 5=1 


5 5 


Ума 2920) тако" 950 1-15 вк -50>0] У Выои-я>] 


5= 5= 5= 5= 


Чем больше будет значение коэффициента знаков по модулю, тем сильнее влия- 
ние /-й оси на номер класса. 

Наряду с рассмотренными мерами информативности для оценки влияния /-Й оси 
на выходной параметр можно использовать модуль коэффициента парной корреля- 
ции [9]: 


У) 


5 
5=1 


Чем больше будет значение коэффициента парной корреляции по модулю, тем 
сильнее влияние /-йЙ оси на номер класса. 

На рис. Та), в), д), ж) изображены выборки экземпляров, полученные случайным 
образом. При этом номера классов экземпляров определялись по заданным формулам. 
Легко видеть, что наиболее сложными являются задачи с взаимным проникновением 
классов (рис. Та) и (рис. 1д)), а более простыми — задачи с компактно расположенны- 
ми, но нелинейно разделимыми классами (рис. 1в) и (рис. 1ж)). 

В табл. 1 приведены усредненные оценки качества преобразований для задач 
распознавания, изображенных на рис. Та) и 1д), а в табл. 2 — для рис. 1в) и 1ж). Соот- 
ветствие обозначений на диаграммах, изображенных на рис. 1 6), г), е), з), и номеров 
преобразований приведено в табл. 1 и 2. Оценки качества преобразований получены 
путем тысячекратных испытаний для выборок псевдослучайных чисел со случайным 
числом экземпляров, варьировавшемся в диапазоне от 50 до 150. По каждому показа- 
телю качества три лучших результата выделены в таблицах жирным шрифтом. При 
этом приоритет отдается показателям /; и /", которые наилучшим образом соответству- 
ют целям преобразований. 

Как видно из табл. 1, наилучшие результаты показывают преобразования У, 
ХП и ХУ, а по данным табл. 2, наиболее эффективны преобразования ТУ и ХУ. Так- 
же легко видеть, что коэффициент корреляции Фехнера и коэффициент корреляции 
знаков в среднем дают подобные результаты, при этом они хорошо согласуются с коэф- 
фициентом парной корреляции и абсолютной и относительной оценками индивидуаль- 
ной информативности признаков для случая нелинейно разделимых классов без проник- 
новений, а для задач с взаимными проникновениями классов хорошо согласуются 
только с коэффициентом парной корреляции. 
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Рисунок 1 — Обучающие множества и их проекции на обобщенные оси 
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Таблица 1 — Результаты исследования преобразований на обобщенную ось для 


задач с взаимными проникновениями классов 


Субботин С.А., Олейник А.А. 


№.(!,хУ] Обозначение Усредненные оценки качества преобразований 
на диаграммах а Г а р . 
Х1 Хх! 0,048062 _| 0,40514 0,083567 0,081409 0,083566 
Х2 Хо 0,048 0,40282 0,082538 0,080053 0,08225 
1 хи+х> 0,075671 | 0,45551 0,099877 0,097898 0,082757 
П Х1Х2 0,06191 0,43522 0,1407 0,14476 0,17913 
Ш о. 0,067894 |0,44522 | 0,094437 | 0,093204 | 0,082505 
ГУ рго]есноп 0,060936 _| 0,43241 0,13243 0,12862 0,1299 
У а 0,24188 0,71953 0,0824 0,081198 0,23469 
УТ а 0,052236 _| 0,45301 0,087407 0,084565 0,084465 
УП а’4 0,051362 _| 0,41971 0,14753 0,15017 0,1717 
УШ а/4 0,054178 | 0,41434 0,14027 0,13875 0,21601 
194 соз(а) 0,048576 _| 0,4063 0,077516 0,073505 0,068288 
Хх 4 0,2091 0,66548 0,078479 0,081677 0,2277 
Хх ао 0,051011 | 0,4369 0,094765 0,093334 0,094446 
ХПИ Ч 0,22226 0.68901 0,084798 0,079413 0,22734 
ХШ а! 0,051901 | 0,44949 0,088465 0,086031 0,088954 
ХУ Чо/А1 0,066816 _| 0,43964 0,11756 0,15806 0,09977 
ХУ ао/а1 0,09029 0,47354 0,13691 0,13452 0,14334 
хм А 0,31396 0,83644 0,085518 0,083247 0,24818 
Таблица 2 — Результаты исследования преобразований на обобщенную ось для 
задач с нелинейно разделимыми классами 


Х.@?, х!) Обозначение Усредненные оценки качества преобразований 
| на диаграммах у ТР. Е .Т. ". 

1 Хх! 0,28329 | 0,31701 | 0,70166 | 0,69245 0,70465 
№2 х› 0,059362 | 0,1273 0.31313 | 0,30484 0,33693 
т хо 0,17709 | 0,39723 0,5955 0,58127 0,65885 
П хх 0.080369 | 0,1707 0,53548 | 0,48836 0,55709 
Ш хх? 0,099449 | 0,21696 0,5709 0,56416 0,62864 
ТУ рго]есноп 0,66056 | 0,72692 | 0,85241 | 0,83999 0,82336 
у а 0,4924 0.66342 | 0,29445 | 0.29213 0,24224 
УТ а 0.049716 | 0,10082 | 0,17121 0,15757 0,19804 
УП аа 0,050559 | 0,096714 | 0,094624 | 0,11141 | 0,077042 
УШ а/4 0,076551 0,1392 0,27185 | 0,26625 0,28498 

ТХ Фсоз(а) 0,24959 | 0,29058 | 0,64768 | 0,63231 0,5295 
х 4 0,11626 | 0,19528 0,2476 0,253 0,25659 
Хх ао 0,17957 | 0,37984 | 0,70164 | 0,68825 0,75375 
ХИ Ч, 0,16503 | 0,36229 | 0,26152 | 0,24004 0,20995 
хШ а! 0,087524 | 0,14402 0,5367 0,53116 0.60528 

ХГУ Чо/41 0,069269 | 0,12202 | 0,23033 | 0,21522 0,2116 
ХУ ао/ат 0,66165 | 0,77766 | 0,82875 | 0,81252 0,84694 
ХУ А 0,442.63 0,5511 0,26628 | 0,26681 0,25541 

Заключение 


В работе решена актуальная задача разработки и исследования преобразований 
из двумерного пространства в одномерное для сокращения размерности обучающей вы- 


борки в задачах распознавания образов. 
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Анализ преобразований для проецирования данных на обобщенную ось в задачах... 2С 


Научная новизна работы заключается в том, что получил дальнейшее развитие 
метод обобщенной оси, для которого предложен комплекс преобразований из двумер- 
ной плоскости на обобщенную ось, что позволяет улучшить разделимость классов. 

Практическая ценность работы состоит в том, что в результате проведенных экс- 
периментов исследованы показатели качества преобразований на обобщенную ось, что 
позволило предложить рекомендации по их использованию на практике, ранжировать 
и при необходимости сократить количество используемых преобразований. 

Дальнейшие исследования могут быть сосредоточены на разработке и исследо- 
вании преобразований на обобщенную ось из трехмерного и многомерного пространств 
признаков. 

Работа выполнена в рамках госбюджетной темы «Информационные технологии 
автоматизации распознавания образов и принятия решений для диагностики в усло- 
виях неопределенности на основе гибридных нечеткологических, нейросетевых и муль- 
тиагентных методов вычислительного интеллекта» кафедры программных средств 
Запорожского национального технического университета (номер государственной ре- 
гистрации 01090007673). 
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С.0. Субботит, А.О. Олйник 

Анал!з перетворень для проектування даних на узагальнену всь 

у задачах розшзнавання образ в 

Виршено завдання створення та дослдження перетворень 13 двовимрного простору в одновимрний для 
скорочення розм!рност! навчально! вибтрки в задачах розшзнавання образлв. Запропоновано рекомендаций з 
використання досл1джених перетворень, що дозволяють 1х ранжирувати 1 скоротити при використанн! 
на практицу. 


5.А. бибБойи, А.А. ОеушЁ 

Апа1у$15 оГ Тгап$огтайоп$ ог 1е Рго]есйоп Бай оп Фе СепегаНтеЯ Ах5 

ш Рабеги Весосоп оп Ргоет5$ 

ТЬе ргоет оЁ д4еуеортеп{ ап4 апа1уз1$ оР апзКогтаНопз$ Нот 20 ю 10 зрасе 1$ зо]уе ми Фе апт 
тефисе фе ташите зеё Аппепзюоп ш рабеги гесост!оп ргоепт$. Тве гесоплтеп4даНопз оп фе и5е оЁ Фе 
шуезИза{е4 тапзРогтаНопз аге ргорозе4, \уРсЬ аПо\м №0 гапее ап гедисе тет изше ш асйоп. 
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